Практикум 13. Bedtools

Обязательная часть

Выравнивание ридов с референсом из 12 практикума в формате .bam было переведено в формат .bed. Затем с помощью bedtools intersect были получены те гены, на которые попали риды, с глубиной покрытия.

Команда Что делает
bedtools bamtobed -i chr2_align.bam > chr2_align.bed Перевод выравнивания из бинарного формата в формат .bed.
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b align.bed -c | grep -r "^chr8" | grep -w -v 0 > intersect.bed Находит пересечение генома с выравниванием ридов, затем оставляет только те, которые относятся ко 2-ой хромосоме, наконец, оставляет только те пересечения, покрытие которых не ноль. Параметр -c необходим для того, чтобы сразу получить покрытие.

Таблица с обзором белков:

ГенПокрытиеПолное имяКоординатыРазмерЧисло
экзонов/интронов
ЦепьФункция
CCDC88A3118coiled-coil domain containing 88A55514978 - 5564705713207934/33-This gene encodes a member of the Girdin family of coiled-coil domain containing proteins.
ATG16L15437autophagy related 16 like 1234118697 - 2342043208562319/18+The protein encoded by this gene is part of a large protein complex that is necessary for autophagy
SCARNA5218 small Cajal body-specific RNA 5234184373 - 2341846482751+-
MLPH1596melanophilin238394071 - 2384639616989020/19+This gene encodes a member of the exophilin subfamily of Rab effector proteins

Задачи по выбору

Таблица с командами

Команда Что делает
1. Получите из файла c выравниванием файл с чтениями в формате fastq.
bedtools bamtofastq -i chr2_align.bam -fq chr2_align.fastq -i 'имя входного файла в формате .bam', -fq 'имя выходного файла в формате .fastq'
2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
bedtools getfasta -bed part.bed -fi chr2.fasta > part.fasta -bed 'Интервал, который необходимо извлечь в формате bed', -fi 'Последовательность, из которой необходимо извлечь интервал в формате fasta'.
3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?
bedtools makewindows -g chr2_len.txt -w 1000000 > split.bed Файл chr2_len.txt: "chr2 243199373", где большое число - длина хромосомы, которая была подсчитана infoseq. Параметр -w задаёт длину фрагмента. В результате получилось 244 интервала.